1
การเปลี่ยนแปลงแนวคิด: จากโมเดลเฉพาะงานไปสู่โมเดลภาษาขนาดใหญ่ (LLMs)
PolyU COMP5511Lecture 10
00:00

วิวัฒนาการของภาษาศาสตร์เชิงคอมพิวเตอร์: จากปัญญาประดิษฐ์ที่แยกเป็นชิ้นเล็กๆ ไปสู่โมเดลพื้นฐาน

คำจำกัดความ

  • ปัญญาประดิษฐ์แบบแยกส่วน: ยุคสมัยที่ถูกกำหนดโดยสถาปัตยกรรมประสาทเทียมที่แยกเป็นชิ้นส่วนและมีจุดประสงค์เฉพาะสำหรับงานต่างๆ เช่น การติดป้ายลำดับข้อมูลหรือการจัดกลุ่มประเภท
  • โมเดลพื้นฐาน: สถาปัตยกรรมโพร่งอันเดียวที่ใช้ร่วมกัน ซึ่งมองปัญหาด้านภาษาทั้งหมดเป็นปัญหาการสร้างลำดับข้อความจากข้อความไปยังข้อความ $x \rightarrow y$

แนวคิดหลัก

  • การรวมโครงสร้างสถาปัตยกรรม: ในอดีต งานวิเคราะห์ภาษาจำเป็นต้องใช้ระบบเฉพาะเจาะจง (เช่น บี-แอลสต์เอ็มสำหรับการระบุชื่อบริษัท หรือ ซี-ซี-เอ็น-เอ็น สำหรับการตรวจจับอารมณ์) แต่โมเดลภาษาขนาดใหญ่ (LLM) ได้รวมสิ่งเหล่านี้ไว้ในโครงสร้างหลักเพียงชิ้นเดียว ที่ใช้ค่าคงที่เดียวกันในการประมวลผลทุกงาน
  • อินเทอร์เฟซที่รวมเป็นหนึ่งเดียว: โมเดลภาษาขนาดใหญ่ (LLM) แทนที่ 'หัวออก' ที่เฉพาะเจาะจง (เช่น ฟังก์ชันซอฟต์แม็กซ์ 3 คลาส) ด้วยอินเทอร์เฟซที่ใช้ภาษาธรรมชาติ ข้อมูลเข้าและข้อมูลออกจะเป็นสายข้อความเสมอ ทำให้โมเดลสามารถเข้าใจ intent มากกว่า รูปแบบ.
  • การถ่ายทอดความรู้: โมเดลแบบเดิมมีลักษณะเหมือนแผ่นกระดาษเปล่าสำหรับแต่ละงาน แต่โมเดลภาษาขนาดใหญ่ (LLM) ให้ความสำคัญกับ การเรียนรู้เชิงทั่วไปเป็นอันดับแรก โดยที่งานเฉพาะเจาะจงต่างๆ เป็นเพียงการนำไปใช้งานอย่างหนึ่งของโครงสร้างภายในที่มั่นคงและครอบคลุมของการเข้าใจภาษา

บริบททางประวัติศาสตร์

  • ก่อนปี 2018: การแยกงานต่าง ๆ ต้องใช้การฝึกโมเดลที่แตกต่างกัน โดยแต่ละโมเดลมีฟังก์ชันการสูญเสียที่ต่างกัน $\mathcal{L}_{task}$
  • ยุคสมัยใหม่: แนวทาง "ข้อความต่อข้อความ" อนุญาตให้โมเดลเดียว (เช่น แลมมา-3) เปลี่ยนงานได้ผ่านการแนะนำแบบไม่มีตัวอย่างหรือมีตัวอย่างน้อย
ปัญญาประดิษฐ์แบบเดิม$f_{NER}(x) \rightarrow y_{labels}$$f_{Sent}(x) \rightarrow y_{class}$$f_{Trans}(x) \rightarrow y_{seq}$ยุคของโมเดลพื้นฐานคำนำหน้า + $x$โมเดลภาษาขนาดใหญ่ (LLM)$f(p, x) \rightarrow y_{str}$สายข้อความ $y$
การเปรียบเทียบการใช้งานภาษาไพธอน